强化学习(RL)是一种机器学习范式,自主代理人通过与基础环境进行互动来学会做出最佳决策顺序。 RL引导的工作流在解开电子设计自动化问题中所证明的诺言鼓励硬件安全研究人员利用自动RL代理来解决特定领域的问题。从硬件安全性的角度来看,这种自主代理人可以在未知的对抗环境中产生最佳动作。另一方面,综合电路供应链的持续全球化迫使芯片制造成为离岸,不信任的实体,从而增加了对硬件安全性的担忧。此外,未知的对抗环境和增加的设计复杂性使后卫在检测攻击者(又称硬件木马)进行的微妙修改方面具有挑战性。在此简介中,我们概述了RL代理在检测硬件Trojans时的开发,这是最具挑战性的硬件安全问题之一。此外,我们概述了潜在的机会,并提出了应用RL解决硬件安全问题的挑战。
translated by 谷歌翻译
在综合电路制造过程中插入的隐形硬件木马(HTS)可以绕过关键基础架构的安全性。尽管研究人员提出了许多检测HTS的技术,但存在一些局限性,包括:(i)成功率低,(ii)高算法复杂性,以及(iii)大量的测试模式。此外,先前检测技术最相关的缺点源于不正确的评估方法,即,他们假设对手会随机插入HTS。这种不适当的对抗性假设使检测技术能够声称高HT检测准确性,从而导致“错误的安全感”。不幸的是,据我们所知,尽管关于检测在制造过程中插入的HTS的研究多了十年,但仍未进行对HT检测技术进行系统评估的协调努力。在本文中,我们扮演着现实的对手的角色,并通过使用加固学习(RL)开发自动化,可扩展和实用的攻击框架,质疑HT检测技术的功效。损耗逃避了两个HT检测类别的八种检测技术,展示了其不可知论行为。与随机插入的HTS相比,消耗量达到$ 47 \ times $ $ $ 47 \ times $ and $ 211 \ times $的平均攻击成功率。我们通过评估从广泛使用的学术套房到较大的设计(例如开源MIPS和MOR1KX处理器)到AES和AE AE和GPS模块等较大的设计,从而证明了损耗的逃避能力。此外,我们通过两个案例研究(特权升级和杀死开关)对MOR1KX处理器展示了损耗生成的HTS的影响。我们设想我们的工作以及发布的HT基准和模型,促进了更好的HT检测技术的发展。
translated by 谷歌翻译
在集成电路中插入硬件木马(HTS)是一个有害威胁。由于在罕见触发条件下激活HTS,因此使用随机逻辑模拟检测它们是不可行的。在这项工作中,我们设计了一个加固学习(RL)代理,该学习代理绕过指数搜索空间并返回最小的模式集,最有可能检测到HTS。各种基准测试的实验结果证明了我们的RL代理的功效和可扩展性,与国家相比,在维持或改善覆盖范围($ 95.75 \%$)的同时,所需的测试模式数量显着降低($ 169 \ times $)($ 169 \ times $)($ 169 \ times $)($ 169 \ times $)($ 95.75 \%$)。 - 艺术技术。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
视频检索随着视觉模型的发展取得了巨大进展。但是,进一步改进这些模型需要其他标记的数据,这是一项巨大的手动努力。在本文中,我们提出了一个框架MKTVR,该框架利用了从多语言模型的知识转移来提高视频检索的性能。我们首先使用最先进的机器翻译模型来构建伪真实的多语言视频文本对。然后,我们使用这些数据来学习视频文本表示,其中英语和非英语文本查询在基于预审前的多语言模型的常见嵌入空间中表示。我们在四个英语视频检索数据集上评估了我们提出的方法,例如MSRVTT,MSVD,DIDEMO和CHARADES。实验结果表明,我们的方法在所有数据集上实现了最先进的结果,超过了先前的模型。最后,我们还在涵盖六种语言的多语言视频回程数据集上评估了我们的模型,并表明我们的模型在零拍设置中优于先前的多语言视频检索模型。
translated by 谷歌翻译
近年来,具有两个较高架构的视觉语言(VL)模型主导了视觉表示的学习。当前的VL模型要么使用轻型Uni-Modal编码器,并在交叉模式编码器中同时提取,对齐和融合这两种模态,或者将最后一层的Uni-Modal-Modal特征直接馈入顶部的交叉模式编码器,而忽略了语义深度单模式编码器中不同级别的信息。两种方法都可能限制视觉表示学习和限制模型性能。在本文中,我们介绍了多个桥梁层,该层在Uni-Modal编码器的顶层和跨模式编码器的每一层之间建立了连接。这可以在不同语义级别的视觉和文本表示之间进行全面的自下而上相互作用,从而导致更有效的跨模式对齐和融合。我们提出的桥梁可以预先训练,仅需$ 4 $ m的图像,可以在各种下游视觉语言任务上实现最先进的性能。在VQAV2 Test-STD集合中,Bridge-Tower的准确性为$ 78.73 \%$,与以前的最先进的仪表型号相同的the Art仪表均优于先前的最先进的仪表\%$ $,并且几乎没有其他参数,并且几乎没有其他参数和其他参数计算成本。值得注意的是,当进一步扩展模型时,桥梁可以达到81.15美元\%$的准确性,超过了在较大的数据集中预先训练的模型。代码可在https://github.com/microsoft/bridgetower上找到。
translated by 谷歌翻译
基于变压器的体系结构已在各种视觉域(最著名的图像和视频)中变得更具竞争力。虽然先前的工作已经孤立地研究了这些模式,但拥有一个共同的体系结构表明,人们可以训练单个统一模型以多种视觉方式。事先尝试进行统一建模通常使用针对视觉任务量身定制的体系结构,或与单个模态模型相比获得较差的性能。在这项工作中,我们表明可以使用蒙版的自动编码来在图像和视频上训练简单的视觉变压器,而无需任何标记的数据。该单个模型学习了与图像和视频基准上的单模式表示相当或更好的视觉表示,同时使用了更简单的体系结构。特别是,我们的单一预算模型可以进行审核,以在ImageNet上获得86.5%的速度,而在挑战性的事物V2视频基准测试中,可以实现75.3%的范围。此外,可以通过丢弃90%的图像和95%的视频补丁来学习该模型,从而实现非常快速的训练。
translated by 谷歌翻译
随着Papyan等人最近对“神经崩溃(NC)”现象的观察,已经采取了各种努力来对其进行建模和分析。神经崩溃描述,在深层分类器网络中,与训练数据相关的最终隐藏层的类特征倾向于崩溃到各自的类功能均值。因此,将最后一层分类器的行为简化为最近级中心决策规则的行为。在这项工作中,我们分析了有助于从头开始对这种现象进行建模的原理,并展示他们如何建立对试图解释NC的最近提出的模型的共同理解。我们希望我们的分析对建模NC和有助于与神经网络的概括能力建立联系的多方面观点。最后,我们通过讨论进一步研究的途径并提出潜在的研究问题来得出结论。
translated by 谷歌翻译
基于变压器的模型的突破不仅彻底改变了NLP字段,而且彻底改变了视觉和多模式系统。但是,尽管可视化和可解释性工具已用于NLP模型,但视觉和多模式变压器的内部机制在很大程度上仍然不透明。随着这些变压器的成功,了解它们的内部运作越来越重要,因为揭开这些黑色盒子将导致更有能力和值得信赖的模型。为了为这一任务做出贡献,我们提出了VL-Interpret,它提供了新颖的交互式可视化,以解释多模式变压器中的关注和隐藏表示。 VL解释是一种任务不可知论和集成的工具,(1)在视觉和语言组件的所有层中跟踪注意力头的各种统计数据,(2)通过易于阅读的热图和跨模式和模式的关注可视化。 (3)绘制视觉和语言令牌穿过变压器层时的隐藏表示。在本文中,我们通过分析KD-VLP(一种基于端到端的视觉视觉方式多模式变压器的模型)在视觉常识推理(VCR)和两个,两个,两个,两个,两个,两个,两个,两个,两个,两个,两个接线型VLP(VCR)的任务,两个,两个,两个,两个,两个,两个,两个,两个,两个,两个,两个vlp,两个vlp,两个vlp,两个vlp,两个,我们在本文中证明了VL解干的功能。视觉问题回答基准。此外,我们还提出了一些有关通过我们的工具学到的多模式变压器行为的有趣发现。
translated by 谷歌翻译
临床票据是记录患者信息的有效方法,但难以破译非专家的难以破译。自动简化医学文本可以使患者提供有关其健康的有价值的信息,同时节省临床医生。我们提出了一种基于词频率和语言建模的医学文本自动简化的新方法,基于富裕的外行术语的医疗本体。我们发布了一对公开可用的医疗句子的新数据集,并由临床医生简化了它们的版本。此外,我们定义了一种新颖的文本简化公制和评估框架,我们用于对我们对现有技术的方法进行大规模人类评估。我们基于在医学论坛数据上培训的语言模型的方法在保留语法和原始含义时产生更简单的句子,超越现有技术。
translated by 谷歌翻译